Average word length | # of sentences | Source |
---|---|---|
8.31 | 14 | http://bg.wikipedia.org/wiki/Varium_est |
8.41 | 11 | http://bg.wikipedia.org/wiki/Алберт_Шестерньов |
8.43 | 11 | http://bg.wikipedia.org/wiki/Янко_Динков |
8.44 | 14 | http://bg.wikipedia.org/wiki/Джули_Кристи |
8.54 | 11 | http://bg.wikipedia.org/wiki/Брус_Риъх |
8.58 | 15 | http://bg.wikipedia.org/wiki/Иван_Иванов_(актьор) |
8.65 | 10 | http://bg.wikipedia.org/wiki/DJ_Shah |
8.68 | 12 | http://bg.wikipedia.org/wiki/Кортни_Лав |
8.77 | 13 | http://bg.wikipedia.org/wiki/Уич_(сериал) |
8.80 | 11 | http://bg.wikipedia.org/wiki/Дискография_на_Селена_Гомес_и_the_Scene |
8.80 | 10 | http://bg.wikipedia.org/wiki/Милош_Зяпков |
8.82 | 12 | http://bg.wikipedia.org/wiki/Алберт_Анкер |
8.82 | 22 | http://bg.wikipedia.org/wiki/Каридад_Браво_Адамс |
8.82 | 25 | http://bg.wikipedia.org/wiki/Симпъл_План |
8.82 | 20 | http://bg.wikipedia.org/wiki/Еди_(Айрън_Мейдън) |
8.88 | 19 | http://bg.wikipedia.org/wiki/Граф_на_Блоа |
8.90 | 12 | http://bg.wikipedia.org/wiki/Латински_съкращения |
8.90 | 25 | http://bg.wikipedia.org/wiki/Мира_Каланова |
8.91 | 11 | http://bg.wikipedia.org/wiki/Black_Roses |
8.92 | 12 | http://bg.wikipedia.org/wiki/Списък_с_епизоди_на_Дневниците_на_вампира |
8.96 | 10 | http://bg.wikipedia.org/wiki/Спиро_Дебърски |
9.04 | 18 | http://bg.wikipedia.org/wiki/Филип_Трифонов |
9.04 | 11 | http://bg.wikipedia.org/wiki/Ейдриън_Грение |
9.04 | 12 | http://bg.wikipedia.org/wiki/Матео_Дармян |
9.04 | 10 | http://bg.wikipedia.org/wiki/Монте_Кук |
9.07 | 11 | http://bg.wikipedia.org/wiki/Луис_Суарес_(футболист) |
9.07 | 17 | http://bg.wikipedia.org/wiki/Джери_Кантрел |
9.08 | 16 | http://bg.wikipedia.org/wiki/Инес_Родена |
9.10 | 20 | http://bg.wikipedia.org/wiki/Блесдъфол |
9.10 | 13 | http://bg.wikipedia.org/wiki/Лорън_Дейвис |
Average word length | # of sentences | Source |
---|---|---|
15.48 | 13 | http://bg.wikipedia.org/wiki/Електробезопасност |
14.98 | 12 | http://bg.wikipedia.org/wiki/Правосъзнание |
14.97 | 10 | http://bg.wikipedia.org/wiki/Електрон |
14.94 | 17 | http://bg.wikipedia.org/wiki/Допамин |
14.88 | 13 | http://bg.wikipedia.org/wiki/Машинно-технологичен_факултет_(Технически_университет-Варна) |
14.69 | 14 | http://bg.wikipedia.org/wiki/Хетероциклично_съединение |
14.67 | 17 | http://bg.wikipedia.org/wiki/Топлотехнически_покрития |
14.64 | 26 | http://bg.wikipedia.org/wiki/Томография |
14.60 | 24 | http://bg.wikipedia.org/wiki/Национална_разузнавателна_служба_(Гърция) |
14.52 | 27 | http://bg.wikipedia.org/wiki/Презастраховане |
14.51 | 13 | http://bg.wikipedia.org/wiki/Вашингтонски_консенсус |
14.46 | 23 | http://bg.wikipedia.org/wiki/Център_Алос |
14.44 | 11 | http://bg.wikipedia.org/wiki/Катехоламини |
14.40 | 34 | http://bg.wikipedia.org/wiki/Беметил |
14.40 | 11 | http://bg.wikipedia.org/wiki/Нискоизлъчващи_покрития |
14.39 | 16 | http://bg.wikipedia.org/wiki/Криминалистика |
14.39 | 10 | http://bg.wikipedia.org/wiki/Борба_за_българска_църковна_независимост |
14.39 | 12 | http://bg.wikipedia.org/wiki/Градски_транспорт_(Велико_Търново) |
14.36 | 10 | http://bg.wikipedia.org/wiki/Заднонебна_съгласна |
14.35 | 11 | http://bg.wikipedia.org/wiki/Временно_руско_управление |
14.35 | 12 | http://bg.wikipedia.org/wiki/Ана_Стойкова |
14.34 | 13 | http://bg.wikipedia.org/wiki/Училищно_настоятелство |
14.32 | 34 | http://bg.wikipedia.org/wiki/Електротехнически_факултет_(ТУ,_Варна) |
14.30 | 23 | http://bg.wikipedia.org/wiki/Пеницилин |
14.30 | 14 | http://bg.wikipedia.org/wiki/Градоустройство |
14.28 | 10 | http://bg.wikipedia.org/wiki/Организация |
14.25 | 10 | http://bg.wikipedia.org/wiki/Равалпинди |
14.25 | 12 | http://bg.wikipedia.org/wiki/Секретариат_за_земеделска_политика |
14.24 | 41 | http://bg.wikipedia.org/wiki/Социализъм |
14.23 | 33 | http://bg.wikipedia.org/wiki/Медицински_университет_(Пловдив) |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words